Aprenentatge semi-supervisat

En ciències de la computació, l'aprenentatge semi-supervisat consta d'un conjunt de tècniques d'aprenentatge automàtic que utilitza dades d'entrenament tant etiquetades com no etiquetades: normalment utilitza una petita quantitat de dades etiquetades juntament amb una gran quantitat de dades no etiquetades. L'aprenentatge semi-supervisat es troba entre l'aprenentatge no supervisat (sense dades d'entrenament etiquetats) i l'aprenentatge supervisat (amb totes les dades d'entrenament etiquetades).

Els investigadors del camp de l'aprenentatge automàtic han descobert que les dades no etiquetades, quan es fan servir juntament amb una petita quantitat de dades etiquetades, poden millorar de manera considerable l'exactitud de l'aprenentatge. L'adquisició de dades etiquetades per resoldre un problema sol requerir un agent humà (p. ex., per transcriure un segment d'àudio) capacitat per classificar manualment els exemples d'entrenament o un experiment físic (p. ex., determinar l'estructura 3D d'una proteïna o determinar si hi ha oli en un lloc en particular). El cost associat al procés d'etiquetatge pot fer que un conjunt d'entrenament totalment etiquetat sigui inviable, mentre que l'adquisició de dades sense etiquetar és relativament poc costosa. En aquests casos, l'aprenentatge semi-supervisat pot ser molt útil. L'aprenentatge semi-supervisat també és d'interès teòric a l'aprenentatge automàtic i com a model per a l'aprenentatge humà.

Es processa un conjunt $l$ d'exemples distribuïts de manera independent i idèntica $x_{1},\dots ,x_{l}\in X$ amb etiquetes corresponents $y_{1},\dots ,y_{l}\in Y$ i $u$ exemples sense etiquetar $x_{l+1},\dots ,x_{l+u}\in X$ . L’aprenentatge semi-supervisat es pot referir tant al aprenentatge transductiu com a l'aprenentatge inductiu. L’objectiu de l’aprenentatge transductiu consisteix únicament en inferir les etiquetes correctes de les dades sense etiquetar $x_{l+1},\dots ,x_{l+u}$ . L’objectiu de l’aprenentatge inductiu tracta en inferir el correcte mapeig de $X$ a $Y$ .

Un exemple de tècnica que utilitza aprenentatge semi-supervisat és el co-entrenament, on s'entrenen dos o més sistemes cadascun en un conjunt d'exemples, però de manera que cada sistema utilitza un conjunt de característiques diferents (i idealment independents) per a cada exemple.

Un enfocament alternatiu consisteix a modelar la distribució de la probabilitat conjunta de les característiques i les etiquetes. Les dades no etiquetades poden ser tractades com a 'dades que falten'. S'utilitza de forma comuna a l'algorisme EM per maximitzar la similitud del model.

Intuïtivament, el problema d'aprenentatge es pot veure com un examen i les dades etiquetades com a problemes de mostra que el mestre resol per a la classe com a ajuda per resoldre un altre conjunt de problemes. A l'escenari transductiu, aquests problemes sense resoldre actuen com a preguntes d'examen. A l'entorn inductiu, es converteixen en problemes de pràctica del tipus que constituiran l'examen.